17 research outputs found
Primjena automatskog međujezičnog akustičnog modeliranja na HMM sintezu govora za oskudne jezične baze
Nowadays Human Computer Interaction (HCI) can also be achieved with voice user interfaces (VUIs). To enable devices to communicate with humans by speech in the user\u27s own language, low-cost language portability is often discussed and analysed. One of the most time-consuming parts for the language-adaptation process of VUI-capable applications is the target-language speech-data acquisition. Such data is further used in the development of VUIs subsystems, especially of speech-recognition and speech-production systems.The tempting idea to bypass a long-term process of data acquisition is considering the design and development of an automatic algorithms, which can extract the similar target-language acoustic from different language speech databases.This paper focus on the cross-lingual phoneme mapping between an under-resourced and a well-resourced language. It proposes a novel automatic phoneme-mapping technique that is adopted from the speaker-verification field. Such a phoneme mapping is further used in the development of the HMM-based speech-synthesis system for the under-resourced language. The synthesised utterances are evaluated with a subjective evaluation and compared by the expert knowledge cross-language method against to the baseline speech synthesis based just from the under-resourced data. The results reveals, that combining data from well-resourced and under-resourced language with the use of the proposed phoneme-mapping technique, can improve the quality of under-resourced language speech synthesis.U današnje vrijeme interakcija čovjeka i računala (HCI) može se ostvariti i putem govornih sučelja (VUIs). Da bi se omogućila komunikacija uređaja i korisnika putem govora na vlastitom korisnikovom jeziku, često se raspravlja i analizira o jeftinom rješenju prijevoda govora na različite jezike. Jedan od vremenski najzahtjevnijih dijelova procesa prilagodbe jezika za aplikacije koje podržavaju VUI je prikupljanje govornih podataka za ciljani jezik. Ovakvi podaci dalje se koriste za razvoj VUI podsustava, posebice za prepoznavanje i produkciju govora. Primamljiva ideja za izbjegavanje dugotrajnog postupka prikupljanja podataka jeste razmatranje sinteze i razvoja automatskih algoritama koji su sposobni izvesti slična akustična svojstva za ciljani jezik iz postojećih baza različitih jezika.Ovaj rad fokusiran je na povezivanje međujezičnih fonema između oskudnih i bogatih jezičnih baza. Predložena je nova tehnika automatskog povezivanja fonema, usvojena i prilagođena iz područja govorne autentikacije. Ovakvo povezivanje fonema kasnije se koristi za razvoj sustava za sintezu govora zasnovanom na HMM-u za manje poznate jezike. Načinjene govorne izjave ocijenjene su subjektivnim pristupom kroz usporedbu međujezičnih metoda visoke razine poznavanja jezika u odnosu na sintezu govora načinjenu iz oskudne jezične baze. Rezultati otkrivaju da kombinacija oskudne i bogate baze jezika uz primjenu predložene tehnike povezivanja fonema može unaprijediti kvalitetu sinteze govora iz oskudne jezične baze
Razvoj zbirke slovenskega čustvenega govora iz radijskih iger – EmoLUKS
V prispevku predstavljamo graditev slovenske zbirke čustvenega govora za umetno tvorjenje govora in hkrati raziščemo tudi možnosti njene uporabe pri razpoznavanju čustvenega stanja govorca. V prispevku se osredotočamo na opis razvite metodologije za označevanje paralingvistične informacije v govoru na primeru označevanja čustvenih stanj v slovenskih radijskih igrah. Zbirka vsebuje govorne zvočne signale sedemnajstih radijskih iger. Trenutno označeno gradivo obsega čustven govor enega govorca in ene govorke. Čustvene oznake posnetkov smo pridobili s pomočjo dvostopenjskega označevanja s petimi prostovoljnimi označevalci, ki so označili posnetke v dveh časovno ločenih intervalih. Način označevanja omogoča medsebojno primerjavo oznak označevalcev. S pomočjo označenega gradiva v obeh iteracijah poročamo o konsistentnosti označevalcev in ujemanju njihovih mnenj. Na podlagi večinskega mnenja pridobljenih čustvenih oznak vsakemu posnetku pripišemo tisto čustveno oznako, ki je bila med označevalci največkrat izbrana, in tako označene posnetke združimo v zbirko čustvenega govora EmoLUKS, ki jo kvantitativno in kvalitativno ovrednotimo z uporabo uveljavljenega samodejnega sistema za razpoznavanje čustvenih stanj govorca. Konsistentnost oznak ovrednotimo z dvorazrednim in sedemrazrednim od govorca odvisnim razvrščevalnikom čustvenih stanj. Uspešni rezultati razpoznavanja dodatno potrjujejo, da podatkovna zbirka kljub svoji zahtevnosti vsebuje jasno izražena čustvena stanja govorca
SLOVENIAN EMOTIONAL HMM-BASED SPEECH SYNTHESIS
Govor je med ljudmi najbolj zastopana oblika sporazumevanja, zato ga večkrat opredeljujemo kot človeku najbolj naravno komunikacijo. Ljudje se brez velikega napora
z govorom sporazumevamo, učimo ali si predajamo različna sporočila. Komunikacija
med ljudmi pa ni osredotočena samo na zvočno sporočilo, temveč ga ljudje dopolnjujemo
tudi z neverbalnimi sporočili. Velikokrat govor spremljajo npr. različne kretnje,
izrazi na obrazu, stik s pogledom, drža, dotiki itd. Vse našteto pri komunikaciji
nezavedno sprejemamo z vsemi čutili, ki so nam v danem trenutku na voljo. Vse
informacije prek različnih čutil zberemo in jih obdelamo v možganih, ki nam prav
tako nezavedno omogočijo pravilno prepoznavo sporočila in razpoznavanje njegovega
konteksta. Neverbalna komunikacija tako pomembno dopolnjuje človeško glasovno
sporazumevanje in človeku omogoča razpoznavo dodatnih informacij, ki omogočajo
učinkovito razumevanje sprejetega sporočila in hkrati tudi njegovo umestitev v širši
kontekst.
V naši doktorski disertaciji se posvečamo raziskovanju tvorbe in zaznave glasovnih
sporočil. Glasovno sporočilo lahko opredelimo kot izgovarjavo besed v določenem jeziku
in tej izgovarjavi pripadajoče neverbalno sporočilo, ki je človeku večkrat skrito. Vseeno
ga lahko prejemnik s pozornim poslušanjem razpozna in se nanj tudi primerno odziva.
Takšno neverbalno komunikacijo, ki je del akustičnega sporočila, večkrat opisujemo kot
t. i. parajezik. Ta je sestavni del glasovnega sporočila, ki ga v govoru lahko grobo
razdelimo na posamezne komponente, kot so ritem, ton, intonacija, jezikovni spodrsljaji,
poudarki besed, premori in tišina. Vse te komponente, združene z izgovorjenimi
besedami, sestavljajo popolno glasovno sporočilo.
V parajezik prištevamo tudi paralingvistična stanja govorca. Posebna vrsta teh
stanj so tudi čustva. Človek pod vplivom določenega čustvenega stanja svoj govor velikokrat
prilagodi in odraža svoje stanje s sebi lastnimi neverbalnimi sporočili. Ljudje
se teh sprememb v govoru le redko neposredno zavedamo. Večkrat pa ravno z njihovo
pomočjo razberemo pravilni pomen posredovanega sporočila. Prejemnik čustveno
obarvanega glasovnega sporočila tako z lahkoto prepozna glasovne prilagoditve, na podlagi katerih, čeprav nezavedno, sporočilo razvrsti v določeno skupino čustvenih stanj
sogovornika. Tako nezavedno razvrščanje, kakor tudi nezavedno tvorjenje čustvenih
sporočil, je del našega vsakdana, ki vpliva na medsebojno verbalno sporočanje,
razumevanje in ne nazadnje tudi na doživljanje sporočil. Besedilno sporočilo z vsemi
komponentami parajezika pomeni sporočilo kot celoto in ga ljudje tvorimo in sprejemamo
nezavedno in je del našega najbolj naravnega komunikacijskega sredstva. Tako
je govor z vsemi prvinami neverbalne komunikacije za človeka eno najbolj naravnih
sredstev sporazumevanja, ki ga spontano srečujemo v vsakodnevni komunikaciji.
Že od začetka digitalizacije je želja razvijalcev, da bi razvili način. da bi lahko človek
komuniciral s stroji na najbolj naraven način, torej z govorom v lastnem jeziku. Govorni
dialog med človekom in strojem naj bi potekal čim bolj podobno kot pri medsebojni
komunikaciji med ljudmi. Tako stroj kot tudi človek pri tem podajata in sprejemata
govorna sporočila. Sprejemanje sporočil pri stroju opredelimo kot problem razpoznavanja
govora, tvorjenje govora pa kot sintezo. Obe področji imata veliko skupnih lastnosti,
zato sintezo večkrat opisujemo tudi kot inverzen proces razpoznavanju govora. V
zadnjem času so raziskovalci dodobra izpopolnili principe in postopke obeh procesov.
A kljub temu ljudje s čedalje bolj zmogljivimi stroji, kot so osebni računalniki, pametni
telefoni in druge moderne naprave digitalne dobe, še vedno ne komuniciramo s pomočjo
govora. Razloge za to je poleg zahtevnega raziskovalnega dela na področju govornih
tehnologij mogoče iskati tudi v jezikovni pestrosti. Močna odvisnost sistemov za modeliranje
in tvorjenje govora od jezika zahteva raziskovanje njegovih specifik na akustični
in leksikalni ravni za vsak jezik posebej. Do časa pisanja te disertacije obstaja le nekaj
svetovnih jezikov, ki imajo razvite sisteme za omejen dialog s stroji. Večina drugih
jezikov pa je žal še vedno zapostavljenih. Enega izmed razlogov za takšno selekcijo
je mogoče iskati v podatkovnih zbirkah, ki so na voljo v posameznem jeziku za implementacijo že razvitih rešitev. Le dobro urejene zbirke govora, ki imajo hkrati tudi
dovolj govornega gradiva, je mogoče uporabiti pri graditvi tovrstnih sistemov.
V doktorski disertaciji se ukvarjamo z gradnjo sistemov za umetno tvorjenje
slovenskega govora. Pri sistemih za tvorjenje govora se osredotočamo na razumljivost
in naravnost tvorjenega umetnega govora. Večkrat se izkaže, da umetni govor ni dovolj
podoben naravnemu. Zato si raziskovalci prizadevajo razviti sistem, ki bi pripomogel
izboljšati predvsem to komponento pri tvorjenju umetnega govora. Če bi za učenje
sistema imeli dovolj veliko podatkovno zbirko govora, ki bi odražala vse značilnosti
posameznega jezika specifičnega govorca, bi lahko razvili sistem, ki bi bil nedvomno superioren na obeh ravneh preverjanja. Žal tako obsežnih zbirk govora še ni na voljo. Zato
so razvijalci sistemov vedno omejeni na delovanje sistemov, ki jih pogojuje zastopanost
gradiva v govorni zbirki.
Izdelava govornih podatkovnih zbirk je dolgotrajen in drag proces, zato se večkrat
delajo manjše podatkovne zbirke, za bolj specifične namene. Za izboljšanje predvsem
naravnosti umetnega govora se v zadnjem času v podatkovne zbirke dodajajo informacije,
ki označujejo posamezne komponente parajezika, ali pa kar oznake čustvenih stanj
govorca. Za namen sinteze si želimo, da bi zbirke vsebovale čim več govornih primerov
posameznega govorca. Z modernimi pristopi k tvorjenju govora lahko tako dovolj dobro
modeliramo značilnosti posameznikovega govora. Če zbirki dodamo tudi oznako
čustvenega stanja, lahko modeliramo tudi to specifičnost, vendar le, če imamo na voljo
dovolj posnetkov govora v določenem čustvenem stanju govorca. Pridobivanje potrebne
količine čustvenega govora pa ni edini problem pri zbiranju podatkov za zbirko. Ker ni
splošnih definicij, ki bi lahko nedvoumno opredelile, kaj je čustveno stanje, je zaznava
čustvenih stanj v govoru tako vedno prepuščena subjektivni percepciji posameznika.
Zato je težko pričakovati, da bi se ljudje popolnoma strinjali, v katerem čustvenem
stanju je govorec, sploh pa tedaj, ko gre za govorca, ki ga ne poznamo. Zato je treba
postopek pridobivanja kakovostnih oznak obravnavati kot enega zahtevnejših problemov
pri zajemanju čustvenega govora v zbirko, s čimer smo se ukvarjali v doktorski
disertaciji.
V novi literaturi srečamo dva sodobna principa graditve sistemov za tvorjenje govora,
ki se med seboj poglavitno razlikujeta. Prvi je osredotočen na združevanje naravnih
govornih segmentov, drugi pa temelji na parametrizaciji in modeliranju govornih
segmentov govora. Za prvega je značilno, da lahko tvori umeten govor bolj naravno, saj
združuje čiste segmente naravnih posnetkov, drugi pa segmente modelira in iz modelov
akustičnih enot tvori umetni govor. Poglavitna razlika pri graditvi teh dveh principov
se izkaže v količini materiala, ki je potreben za izgradnjo obeh sistemov. Pri drugem
ga za doseganje kakovostnega in razumljivega govora potrebujemo bistveno manj kot
pri prvem. Če pa poizkusimo vgraditi v sistem tudi posamezne komponente parajezika
ali čustvenih stanj, potrebujemo za realizacijo prvega sistema neprimerno več gradiva,
kot pri drugem.
Ker so čustvena stanja težko določljiva, lahko pričakujemo, da bomo razpolagali z
manjšim naborom kakovostnega čustvenega gradiva. Zato se v disertaciji osredotočamo
na graditev sistema za umetno tvorjenje čustvenega slovenskega govora s pomočjo
parametričnih modelov govora, ki jih pridobivamo s postopkom prikritih Markovovih
modelov (PMM). Princip gradnje sistemov zaradi parametrizacije govora omogoča modeliranje
govora na podlagi statističnih modelov, ki jih določamo na podlagi govorne
zbirke. S spremembo parametrov statističnih modelov lahko spreminjamo akustične in
intonacijske lastnosti govora ter trajanje govora. To počnemo s postopki adaptacije
in interpolacije statističnih modelov. V doktorski disertaciji pa smo takšne postopke
uporabili tudi za tvorbo emocionalnih stanj govorca.
Vsak udejanjeni sistem za umetno tvorjenje govora je treba vrednotiti. Kot smo že
omenili, sisteme za umetno tvorjenje govora preverjamo na dveh ravneh. Prva preverja
razumljivost, druga pa naravnost umetnega govornega signala. Realiziran čustveni
govor lahko preverimo na podoben način, kot je to mogoče storiti pri graditvi čustvene
podatkovne zbirke. Vsak realizirani posnetek čustvenega govora ocenijo ocenjevalci, ki
s pomočjo vprašalnika podajo svoje mnenje o tem, ali so v posnetku resnično prisotna
zahtevana čustvena stanja govorca. Verodostojno preverjanje je mogoče le, če imamo
na voljo dovolj ocenjevalcev in dovolj umetno tvorjenih čustvenih govornih signalov.
Tak postopek uvrščamo med postopke subjektivnega vrednotenja sistemov. Toda subjektivno
preverjanje je drag in dolgotrajen proces. Zato si razvijalci sistemov želijo, da
bi udejanjene sisteme lahko preverjali hitreje in bolj objektivno. Do nastanka te disertacije
še vedno ni bilo zanesljivega objektivnega postopka, ki bi razvijalcem ponudil
hitrejše in bolj učinkovito vrednotenje udejanjenih sistemov čustvenega govora.
V doktorski disertaciji se osredotočamo na izdelavo sistema za umetno tvorjenje
slovenskega čustvenega govora. Realiziramo vse komponente, ki so potrebne za razvoj
parametričnega sistema za umetno tvorjenje govora. S pomočjo modifikacije znanih
postopkov na podlagi prikritih Markovovih modelov (PMM) predlagamo postopek, s
katerim je mogoče razviti sistem čustvenega slovenskega govora z omejenim naborom
čustvenega gradiva. Postopek temelji na statistični analizi kakovosti oznak posnetkov
čustvenega govora. S takim pristopom lahko iz manjše količine čustvenega govora
izluščimo specifično informacijo, ki jo posamezen govorec izrazi v določenem čustvenem
stanju. Pomembno vlogo pri postopku pa ima tudi govorno gradivo, ki odraža nevtralno
čustveno stanje. Takega gradiva je ponavadi v čustvenih zbirkah govora največ
in pomeni osnovo za graditev čustvenega sistema za umetno tvorjenje govora.
Čustveno nevtralno gradivo tako uporabimo za graditev osnovnega statističnega modela
z uporabo tehnik PMM. Tehnike prilagajanja omogočajo, da dobro ocenjen statistični
model naravnega govora lahko preslikamo v statistični model posameznega čustvenega
stanja govorca. S tako pridobljenim modelom lahko tvorimo poljuben in obenem
kakovostni umetni govor v tarčnem čustvenem stanju.
Naslednja novost, ki jo predstavljamo v disertaciji, je usmerjena k objektivnemu
vrednotenju sistemov za umetno čustveno tvorjenje govora. V disertaciji predlagamo
postopek, ki temelji na evklidski razdalji med mel-kepstralnimi vektorji značilk originalnih
in umetno tvorjenjih posnetkov. Pridobljene razlike vsakega umetno tvorjenega
čustvenega posnetka odražajo oceno podobnosti z originalnim posnetkom. Najmanjša
razlika določi najbolj podoben posnetek. Če ima originalni posnetek pripisano čustveno
oznako, lahko z metodo verifikacije pridobimo avtomatski rezultat, ki odraža, ali je sistem
za umetno tvorjenje govora res udejanjil govor, ki je najbolj podoben čustvenemu
govoru v originalnem posnetku.
V disertaciji prestavljamo novo zbirko čustvenega slovenskega govora, ki smo jo
pridobili iz posnetkov slovenskih radijskih iger. Te smo pridobili za označevanje in
nadaljnjo obdelavo z dovoljenjem RTV Slovenija. Čeprav gradivo vsebuje igrana
čustvena stanja so le-ta po našem prepričanju podobna čustvenim stanjem v spontanem
govoru. Razloge za to trditev lahko iščemo v širšem kontekstu besedila in
hkrati v dialogih med protagonisti. Nastopajoči igralci predstavijo posamezno vlogo s
širokim naborom čustvenih stanj, ki pa se v akustiki in načinu predstavitve odraža kot
čustveni govor igralca. Zato pri pristopu nismo omejeni le z eno radijsko igro, temveč
lahko zberemo akustično gradivo posameznega igralca ali igralke v več radijskih igrah.
Pomemben dejavnik pri zbiranju akustičnega material je tudi kakovost posameznih posnetkov.
Radijske igre so v večini posnete s profesionalno opremo, zato so tudi zbrani
posnetki dovolj kakovostni za nadaljnjo obdelavo in procesiranje. V disertaciji predstavimo
metodologijo za zbiranje čustvenega akustičnega gradiva iz radijskih iger na
primeru izbranega govorca in govorke. Z merami ujemanja označevalcev predstavimo
problematiko obravnave in zaznave čustvenega stanja pri posamezniku. Z dvakratnim
označevanjem podatkovne zbirke z istimi označevalci, v dveh različnih časovnih obdobjih
smo pridobili kakovostno označeno gradivo. Obenem smo preverili tudi konsistentnost
posameznikove percepcije čustvenih stanj v govoru. Zbranim posnetkom v zbirki
poleg transkripcije dodamo tudi čustveno oznako s pripisom ocene, ki odraža kakovost
označbe. Prav ta zbirko izpostavi med redke zbirke slovenskega čustvenega govora,
ki poleg čustvene oznake posameznega posnetka vsebujejo tudi informacijo kakovosti
oznake izraženega čustvenega stanja na posnetku.
Doktorska disertacija je razdeljena na šest poglavij. V uvodnem delu predstavimo
temo disertacije, opišemo cilje raziskovalnega dela, ki smo si jih zadali na začetku
raziskovanja, ter podamo natančnejši pregled vsebine disertacije.
V drugem poglavju naše delo umestimo v širše področje govornih tehnologij, obenem
pa izpostavimo splošno znane postopke, ki so osnova za razvoj sistemov za umetno
čustveno tvorjenje govora. Hkrati poskusimo s širšim vpogledom v obravnavano področje
pojasniti izbore poti, ki smo jih uporabili za nastanek te disertacije.
Nova zbirka slovenskega čustvenega govora je opisana v tretjem poglavju, kjer
natančno opišemo metodologijo njene izdelave. Osredotočimo se na težavnost označevanja čustvenih stanj v govoru, kar poudarimo z rezultati dvakratnega označevanja
izbranih čustvenih posnetkov z istimi označevalci v dveh različnih časovnih obdobjih.
Dvakratno označevanje nam omogoča tudi poročanje o konsistentnosti označevalcev pri
označevanju emocionalnih stanj. Pridobljene oznake analiziramo in podamo objektivno
vrednotenje čustvenega govora v zbirki z avtomatskim sistemom za razpoznavanje od
govorca odvisnih čustvenih stanj.
Četrto poglavje je usmerjeno k opisu predlaganega postopka za tvorjenje umetnega
čustvenega govora na podlagi kakovosti oznake čustvenega gradiva. V poglavju najprej
predstavimo osnovni znani postopek, ki omogoča tvorbo umetnega čustvenega govora
na podlagi modeliranja z modeli PMM. Postopek zaradi preglednosti razdelimo na
posamezne dele, saj s tem lahko bolje poudarimo razlike, ki se odražajo pri realizaciji
sistema za tvorjenje čustvenih stanj govorca. V naslednjem razdelku nadaljujemo z
opisom prilagoditve postopka z uporabo razvite zbirke čustvenega govora, kjer s pridom
uporabimo kakovost oznak čustvenega gradiva.
Problematiko vrednotenja sistemov za umetno tvorjenje govora predstavimo v petem
poglavju. Na tem mestu opišemo znane subjektivne in tudi znane objektivne
postopke za vrednotenje sistemov. Posebno pozornost namenimo vrednotenju čustveno
obarvanega umetnega govora, kjer predstavimo predlagan postopek za objektivno vrednotenje.
Postopek temelji na procesu verifikacije umetno tvorjenjih čustvenih posnetkov
govora. V postopku verifikacije primerjamo besedilno odvisne umetno tovorjene signale
z njihovimi originali. Če se ciljna in originalna oznaka čustvenega stanja ujemata,
lahko umetno tvorjeni posnetek označimo kot najboljši približek originalnemu
posnetku. Na koncu poglavja predstavimo pridobljene rezultate vrednotenja razvitega
sistema za umetno tvorjenje slovenskega čustvenega govora, ki je bil udejanjen na podlagi
čustvenega gradiva v zbirki EmoLUKS.
V sklepnem, šestem poglavju ponovno predstavimo pomembnejše izvirne prispevke
disertacije in jih poskusimo ovrednotiti. Poglavje zaključimo s predlogi za nadaljnje
delo in podamo smernice, ki odražajo naš pogled in spoznanja za potencialne izboljšave
sistemov za umetno tvorjenje slovenskega čustvenega govora.Speech is the most common type of communication between humans and is often defined
as the most natural human form of communication. With little effort, people use speech
to communicate, learn and share different messages. However, human communication
is not limited merely to the vocal sounds, but is also complemented by nonverbal cues.
Speech is often accompanied by various gestures, facial expressions, posture, touch
etc. They are perceived unconsciously by all the senses that are available in a given
situation. The information thus gathered is collected and processed in the brain, which
enables us, just as unconsciously, to interpret the message correctly and recognise its
context. This means that nonverbal communication is an important supplement to the
human voice communication, enabling the recognition of additional information, which
makes it possible to comprehend the message efficiently and place it into context.
The doctorial dissertation’s aim is to research the formation and perception of
vocal communication. Vocal communication can be defined as the utterance of words
in a certain language and the accompanying nonverbal signs, which are often hidden.
Nonetheless, with attentive listening the recipient can easily recognize and respond to it
accordingly. Nonverbal communication modifies the acoustic message and is frequently
described as paralanguage. It is an integral part of vocal communication and can
be divided into several components: rhythm, tone, intonation, language slips, word
emphases, pauses and silence. The sum of these components combined with the uttered
words form the entirety of vocal communication.
Another component of paralanguage are the paralinguistic states of the speaker and
emotions represent a distinctive part of these states. Speakers who are experiencing
various emotional states will often modify their speech accordingly and communicate
it with unique nonverbal signs. It is rare for people to actually be aware of how they
modify their speech. On the other hand, this is precisely what often helps to recognise
the true meaning of the communicated message. The recipient of an emotionally expressed
vocal message can thus easily recognise such vocal modifications and classify
the message, albeit unconsciously, into a certain group of the interlocutor’s emotional
states. This unconscious classification, as well as the unconscious formation of emotional
messages, is a part of our day-to-day lives and influences the verbal communication,
comprehension and, last but not least, perception of messages. The combination
of verbal communication and all of its paralanguage components represents the entirety
of a message, which is formed and perceived unconsciously and forms a part of
our most natural means of communication. Speech, together with all the elements of
nonverbal communication, is thus one of the most natural communication means which
is experienced daily and spontaneously.
Ever since the beginnings of the digital era, researchers wished to develop a way
in which humans and machines could interact most naturally, i.e. by speaking to each
other. Such human-machine verbal dialogue ought to reflect interpersonal communication
as closely as possible. This means that both machine and human form and receive
verbal messages. The reception of messages by machines is defined as the problem of
speech recognition, while the formation of speech is defined as speech synthesis. Both
fields have many common characteristics and speech synthesis is often described as an
inverted process of speech recognition. Recently, the principles and processes involved
in both have been significantly refined. However, despite having increasingly more
powerful machines such as personal computers, smartphones and other modern-day
digital devices, we still do not communicate with them verbally. One reason for this
could be language diversity, besides the obviously difficult research work necessitated
in the field of speech technologies. The fact that systems for speech modeling and
synthesis are highly dependent on the language involved means that specific acoustic
and lexical research must be carried out on each language separately. At the time
of this writing, there are only a handful of languages for which systems for limited
human-machine dialogue have been developed. Unfortunately, the majority of languages
still lack such systems. One of the reasons for this could be the absence of
individual language databases, which are necessary for the implementation of already
developed solutions. Only well annotated and sufficiently large speech databases make
the development of such systems possible.
The dissertation treats the development of systems for artificial synthesis of Slovenian
speech. The main goal of these systems is to produce artificial speech that is
understandable and natural. It is often the case that artificial speech does not sufficiently
resemble natural speech. Because of this, researchers mostly endeavour to
develop a system with improved performance in these categories. If they had access
to a speech database which was large enough to reflect all the characteristics of the
language of a particular speaker, they would undoubtedly be able to create a superior
system. Unfortunately, there are no such databases available at this time. The development
of well performing systems is thus held back by the amount of data in speech
databases.
Because building speech databases is a lengthy and costly process, smaller and more
specialized databases are often produced. For the purpose of making artificial speech
more natural, a recent trend in database production has been to a
Induced transmembrane voltage and electropermeabilization of cells in cultures in vitro
TOULOUSE3-BU Sciences (315552104) / SudocSudocFranceF
Poling-induced inverse time-dependent microstrain mechanisms and post-poling relaxation in bismuth ferrite
Domain-wall dynamics under strong, super-coercive electric fields in polycrystalline bismuth ferrite (BiFeO3) are not well established due to the experimental difficulties in processing high phase purity perovskite with low electrical conductivity. Overcoming these difficulties, here we present x-ray diffraction measurements carried out in situ during electrical poling with a trapezoidal electric-field to investigate the domain wall dynamics and lattice strain in this material. It is observed that during field ramping, microscopic strains, i.e., non-180° domain texture and lattice strain, increase simultaneously. During DC field dwell, however, a lattice strain decrease occurs over time, accompanied by an increase in the non-180° domain texture. This inverse time-dependent trend of microscopic strain mechanisms is speculated to be due to mobile charged defects residing in domain wall regions. The configuration of these charged point defects may also play a role in the observed post-poling relaxations of non-180° domain texture and macroscopic piezoelectric coefficients on removal of the field. Since conducting domain walls have been recently identified in a number of ferroelectrics, these results should significantly impact the understanding of strain mechanisms not only in BiFeO3 but on a broader range of ferroelectric materials
Endoscopic duodenal-jejunal bypass liner treatment for type 2 diabetes and obesity: glycemic and cardiovascular disease risk factor improvements in 1,022 patients treated worldwide
No abstract available
Prenatal dexamethasone treatment for classic 21-hydroxylase deficiency in Europe
Objective: To assess the current medical practice in Europe regarding prenatal dexamethasone (Pdex) treatment of congenital adrenal hyperplasia (CAH) due to 21-hydroxylase deficiency.
Design and methods: A questionnaire was designed and distributed, including 17 questions collecting quantitative and qualitative data. Thirty-six medical centres from 14 European countries responded and 30 out of 36 centres were reference centres of the European Reference Network on Rare Endocrine Conditions, EndoERN.
Results: Pdex treatment is currently provided by 36% of the surveyed centres. The treatment is initiated by different specialties, that is paediatricians, endocrinologists, gynaecologists or geneticists. Regarding the starting point of Pdex, 23% stated to initiate therapy at 4–5 weeks postconception (wpc), 31% at 6 wpc and 46 % as early as pregnancy is confirmed and before 7 wpc at the latest. A dose of 20 µg/kg/day is used. Dose distribution among the centres varies from once to thrice daily. Prenatal diagnostics for treated cases are conducted in 72% of the responding centres. Cases treated per country and year vary between 0.5 and 8.25. Registries for long-term follow-up are only available at 46% of the centres that are using Pdex treatment. National registries are only available in Sweden and France.
Conclusions: This study reveals a high international variability and discrepancy in the use of Pdex treatment across Europe. It highlights the importance of a European cooperation initiative for a joint international prospective trial to establish evidence-based guidelines on prenatal diagnostics, treatment and follow-up of pregnancies at risk for CAH